杨梅T2T论文阅读
杨梅
发表在《Horticulture Research》上
[toc]
图做的没有那么好看
很多比较都没有说明为什么,有点莫名其妙的,跟T2T好像没啥关系
群体分析那里最后也不知道为啥要把第五组单独拎出来
与颜色相关的SNP那里本来只在研究MrChr6G07650和MrChr6G07660,突然加入了MrChr6G07670讲的很不清楚,
Abstract
这篇文章研究了中国杨梅(Myrica rubra或Morella rubra)的基因组及其与果实质量性状相关的遗传变异。具体工作包括:
1.基因组组装:使用PacBio HiFi长读技术,为‘枣佳’品种组装了一个端粒到端粒(T2T)的无间隙参考基因组,大小为292.60 Mb,揭示了8个着丝粒区域、15个端粒和28,345个基因。这显著提升了中国杨梅基因组的连续性和完整性。
2.基因型重测序:对173个样本进行重测序,鉴定出6,649,674个单核苷酸多态性(SNP)。
3.表型分析与全基因组关联研究(GWAS):分析了29个与果实质量相关的表型性状,进行了GWAS,发现1937个SNP和1039个基因与28个性状显著相关。
4.果色相关基因的发现:在第6染色体的3407532至5153151 bp区域内发现了一个与果实颜色相关的SNP群,该区域包含两个MYB基因(MrChr6G07650和MrChr6G07660),在不同表型的转录组中表现出差异表达,关联于花青素合成。邻近的MrChr6G07670基因(MLP样蛋白)含有一个外显子错义变异,证明其能使烟草叶片中的花青素产量增加十倍。
5.功能验证与应用:该SNP群可能作为一个数量性状基因座(QTL),共同调控杨梅果实颜色。研究最终提供了完整的参考基因组,揭示了与果实质量相关的一系列等位变异,并鉴定了可用于提升杨梅果实质量和育种效率的功能基因。
Introduction
Myrica L. 属包括大约55种植物
中国杨梅(Myrica rubra)、木薯(Manihot esculenta)、矮杨梅(Myrica nana)、腺花杨梅(Myrica adenophora)、蜡杨梅(Myrica cerifera)、火山杨梅(Myrica faya)和里瓦斯杨梅(Myrica rivas-martinezii)
ZW染色体
GWAS 在位点检测和精确基因定位方面具有很高的效率。然而,迄今为止,尚未对可用的 M. rubra 种质资源进行大规模的重新测序。对其他具有重要经济意义的作物(如番茄、葡萄和枇杷)的类似GWAS有助于鉴定与果实颜色、大小、果肉质地、风味和营养/生物活性化合物含量相关的特定基因和突变
- 果实质量:多基因形状
- 果实质量由多种参数决定,包括外观质量性状(如形状、大小、颜色)和内在质量性状(如糖分、酸度和氨基酸水平)。
- 寻找创新育种的靶基因
依旧是讲了一下需要一个完整组装作为参考基因组的重要性,以此说明自己T2T组装的重要性
还是常规的展示了一下circos图、Hi-C的染色体交互图,还有 K-mer 分布 (17-mer) 光谱展示基因组大小
目前GWAS研究已经在西红柿、葡萄和枇杷等经济重要作物中发挥了重要作用,帮助识别与果色、果大、果肉质地、风味及营养/生物活性化合物含量相关的特定基因和突变。还没有在杨梅M. rubra种质资源进行,还没有大规模的重测序过
- 167 cultivated germplasm resources and six interspecific resources.
- 167个不同的栽培品种/品系
- 6个物种间资源(不同物种杂交)
Results
Assembly of a highly contiguous genome of M. Rubra
给了一个表介绍了一下T2T的组装
K-mer 分析估计 M. rubra 基因组大小为 282.20 Mb,杂合率为 0.85%
最终产生了 292.60 Mb 的基因组组装,其重叠群 N50 大小为 36.50 Mb
(BUSCO) 数据库评估组装的完整性
8个着丝粒区域、7个碱基端粒重复序列鉴定15个端粒
- 长末端重复 (LTR) 组装指数 (LAI)
- 预测注释了28 345 genes and 33 502 mRNAs
- Repeat sequences:串联重复序列、穿插重复序列和转座因子 (TE)占43.43%。有助于鉴定,
- T2T的一个优势就是长读长鉴定重复序列的,所以这里提了
- 和原本参考基因组的比较,优势巴拉巴拉
- 系统发育树
- 植物间的进化关系,涵盖了水果作物(如苹果、杨梅、猕猴桃)、坚果作物(如核桃)、粮食作物(如水稻)以及木本植物(如木麻黄和单蕊花)
- 基于蛋白质同源物(protein homologs)和基因家族扩展与收缩(gene family expansions and contractions)来构建的
- OrthoFinder 用于识别不同物种之间的同源基因(orthogroups,OGs)。同源基因是指从共同祖先基因衍生出来的基因
- 在Myrica rubra(杨梅)\中,有1014个基因家族扩展,4258个基因家族收缩。这些变化与**叶绿体发育、果实成熟、抗逆性功能**等相关。
- 杨梅与其他植物(如胡桃 Juglans regia)的分歧时间为6600万年
Population structure analyses
种群结构分析
通过测了173个品种、与T2T比对,鉴定六百多万个SNP
使用KASP(一种湿实验)进行了一下验证
使用PCA把这些品种分为6组(图2A、2B),结合表型的特征(表)和图(2C、2D、2E)一起分析
- 根据PCA的结果进行了详细的生物分析,这里简单说一下
- 第一组是 interspecific germplasm resources种间资源,与别的5组种内表现出很强的genetic divergence(2D)
- 第二组,Linkage disequilibrium (LD) decay rates排名最高,连锁不平衡衰减率最快(也不进一步说明意义)
- 18份主要来自贵州和湖南
- 表观上总可溶性固形物 ( average total soluble solid ,TSS) 含量 (12.21%) 和可滴定酸 ( titratable acid ,TA) 含量 (1.02%) 最高
- 表现出与果实品质相关的独特遗传多样性和表型性状
- 第三组
- 来自福建和广东,具有最高水平的风味相关氨基酸,包括天冬氨酸 和谷氨酸
- 第四组
- 来自江苏,平均果实重量 最高,但是TSS含量最低,可能存在negative association, requiring further investigation
- 第五组
- 主要是浙江北部,20 个种质的核苷酸多样性水平最低。因为是manually-selected varieties ,人工培育的,但是average lightness (L) and red-green (a) color values颜色值很高
- 第六组
- 主要分布在浙江中部和南部,现出最高的杂合性和多态性。 respective average total sugar (TS) and acid-sugar ratio (AS)最高,说明口味sweet/sour flavor。
解释一下图
A:这里系统发育树展示了173个品种之间的发育树,但是没写怎么来的,我思考了一下使用SNPhylo基于SNP构建群体系统发育树
- (我猜的)可能是通过SNP数据来做的,可以达到全基因组水平,另外通过了一些方法比如连锁不平衡减少了SNP的冗余
- 也有可能是根据上面同源家族来做的
B:PCA图,展示了两个成分,按照补充表13做的
- PCA的使用的特征,也不是全部的基因数据
- SampleID Data (Gb) Depth(X) Mapping Rate (%) Number of SNP Transitions Transversions Ts/Tv Reference Heterozygous loci Homozygous loci Missing Region
C:每组的LD decay rate
LD是判断SNPs间的关联程度
连锁不平衡粗俗的说就是:这几个基因耍流氓,喜欢抱团遗传,不再随机。而连锁不平衡衰减是指在基因组上,随着物理距离的增大,两个连锁的的等位基因的连锁程度不断减小
遗传背景不同,LD衰减速度也存在很大的差异:经过驯化和选择,遗传多样性会下降,位点间的连锁关联性就会增强,进而衰减的速度就慢
D:Nucleotide diversity (π) and population divergence (FST)
Pi指的是核苷酸多样性,Pi值越大说明核苷酸多样性越高。通常用于衡量群体内的核苷酸多样性,也可以用来推演进化关系,可以理解成先在群体内两两求Pi,再计算群体的均值
Fst叫固定分化指数,用于估计亚群间平均多态性大小与整个种群平均多态性大小的差异,反映的是群体结构的变化。Fst的取值范围是[0,1]
- 当Fst=1时,表明亚群间有着明显的种群分化,值越高表示分化程度越高。在中性进化条件下,Fst的大小主要取决于遗传漂变和迁移等因素的影响。
- 假设种群中的某个等位基因对特定环境的适应度较高而经历适应性选择,那该基因的频率在种群中会升高,种群的分化水平增大,群体Fst升高。
- 当Fst=1时,表明亚群间有着明显的种群分化,值越高表示分化程度越高。在中性进化条件下,Fst的大小主要取决于遗传漂变和迁移等因素的影响。
- E:基于 173 个杨梅种质中的 665 万个 SNPs,研究了从 2 到 8 的簇 (K) 的群体遗传结构图
- k=7 除了组1,别的组的遗传背景都比较丰富
在进行Structure分析时我们只是获得了样本的基因型,并不知道这个群体实际包含几个亚群。把群体的亚群数称为K值,可以先预设群体亚群数等于1~n,即K=1~n,然后模拟在K=x的情况下,通过贝叶斯算法推算群体是如何分群以及每个个体的祖先来源。最后再根据每次模拟的最大似然值,找出划分这个群体的最佳K值。
看完就能实战群体进化之Structure分析 | 含画图代码和实战数据
(有点莫名其妙的为什么)数据里面使用FST 分析来分析第五组和别的组的区别,识别前 1% 的显著差异基因座和相关基因,说一些具体的差别基因是干什么的
Phenotypic data analysis
对29个表型做了相关性分析。详细分析了一下哪些正相关强,哪些负相关强
分类 | 特征 | 定义和意义 |
---|---|---|
1. 果实大小相关特征 | 1.1 FW (g) | 果实的鲜重,以克(g)为单位,反映果实的总体重量。 |
1.2 LD (mm) | 果实的长径,以毫米(mm)为单位,衡量果实的长度。 | |
1.3 BD (mm) | 果实的短径,以毫米(mm)为单位,评估果实的宽度。 | |
1.4 FI | 果实指数,通常是长径与短径的比值,反映果实的形状特征。 | |
2. 果实颜色相关特征 | 2.1 L* | 亮度值,衡量果实颜色的明暗程度。 |
2.2 a* | 绿色-红色轴值,表示果实颜色的绿红倾向。 | |
2.3 b* | 蓝色-黄色轴值,表示果实颜色的蓝黄倾向。 | |
3. 果实糖分和酸度 | 3.1 TSS (%) | 总可溶性固体含量,以百分比表示,反映果实的甜度。 |
3.2 TS (mg/g) | 总糖含量,以毫克/克(mg/g)为单位,衡量果实中的糖分。 | |
3.3 TA (%) | 可滴定酸度,以百分比表示,衡量果实的酸度。 | |
3.4 AS | 抗坏血酸含量,以毫克/100克(mg/100g)表示,反映维生素C水平。 | |
3.5 Vc (mg/100g) | 维生素C含量,以毫克/100克(mg/100g)表示,提升果实的营养价值。 | |
4. 氨基酸 | 4.1 TAA (mg/g) | 总氨基酸含量,以毫克/克(mg/g)为单位,反映果实的蛋白质质量。 |
4.2 Asp (mg/g) | 天冬氨酸含量,参与果实的代谢过程。 | |
4.3 Thr (mg/g) | 苏氨酸含量,参与蛋白质合成和代谢。 | |
4.4 Ser (mg/g) | 丝氨酸含量,影响果实的发育和功能。 | |
4.5 Glu (mg/g) | 谷氨酸含量,增强果实的鲜味和风味。 | |
4.6 Gly (mg/g) | 甘氨酸含量,参与蛋白质合成和代谢过程。 | |
4.7 Ala (mg/g) | 丙氨酸含量,影响果实的代谢活动。 | |
4.8 Val (mg/g) | 缬氨酸含量,参与蛋白质合成和能量代谢。 | |
4.9 Met (mg/g) | 蛋氨酸含量,参与蛋白质合成和甲基化反应。 | |
4.10 Iso (mg/g) | 异亮氨酸含量,参与蛋白质合成和能量代谢。 | |
4.11 Leu (mg/g) | 亮氨酸含量,促进蛋白质合成和肌肉修复。 | |
4.12 Tyr (mg/g) | 酪氨酸含量,影响果实的抗氧化能力。 | |
4.13 Phe (mg/g) | 苯丙氨酸含量,参与蛋白质合成和酚类化合物生成。 | |
4.14 Lys (mg/g) | 赖氨酸含量,关键的营养成分,参与蛋白质合成。 | |
4.15 His (mg/g) | 组氨酸含量,参与多种生化反应。 | |
4.16 Arg (mg/g) | 精氨酸含量,参与尿素循环和一氧化氮合成。 | |
4.17 Pro (mg/g) | 脯氨酸含量,稳定蛋白质结构,响应抗逆境。 |
GWAS前表型数据要符合正态分布,这里做了检验
GWAS analyses of bayberry fruit-related traits
EMMAX 分析了 6 64万个SNPs与29个性状之间的关系,其中1937 个与 28 个性状相关的显著 SNP 信号。
L*值与最多的SNP相关
外观:961个SNP 与果实大小和颜色有关,大部分在4和6染色体
内在性质intrinsic quality traits:976个SNP与糖和酸相关性状和氨基酸含量
颜色相关SNP
染色体上跟L*性状相关的GWAS,发现在Chr6上的一个SNP簇,该区域的两个基因,MrChr6G07650和MrChr6G07660,
- 文献验证:这两个基因编码MYB转录因子,已知与水果颜色相关,特别是调控花青素生物合成。
- 同时使用了转录组差异表达验证了这一结果
B:LD block:
C:Chr6上的单倍型分析
D:基因的亚细胞定位
E:过表达一个基因对性状的影响
所以这先是讲了MrChr6G07650和MrChr6G07660共同编码MYB的转录因子,与花青素合成有关
然后再通过这些图,表示在边上MrChr6G07670的外显子里面的一个变异A->T,导致了L*值的变化,然后做了实验去验证,比如AA、AT、TT的不同基因型
最后证明由 MrChr6G07650、MrChr6G07660、MrChr6G07670 和其他基因组成的 SNP 簇是一个 QTL,共同决定了杨梅果实的颜色。
另外的分析各种SNPs
类似的方法分析了别性状相关的的SNP
Fruit size-associated SNPs
Fruit sugar and acid-associated SNPs
Amino acid-associated SNPs
Co-expression network and pathway analysis
进一步了解性状和基因表达之间的关系
使用 23 470 个基因进行了加权基因相关网络分析 (WGCNA)
鉴定出27个共表达模块
为深入探究杨梅果实质量性状与基因表达之间的关系,研究使用了加权基因共表达网络分析(WGCNA),涉及23,470个基因。通过分析,共识别出27个共表达模块,其中Turquoise模块包含最多的基因(8992个),Blue模块包含2466个基因。在模块与性状关系的热图中,Blue模块与果实质量性状(如氨基酸、果重(FW)、果实密度(BD)、果实酸度(AS)、可溶性固形物(TSS)等)表现出最强的关联,因此被选择用于进一步分析。
对BLUE模块进行,GO和KEGG富集分析表明,Blue模块中的基因主要参与了肽合成、代谢过程及酰胺合成代谢过程。KEGG分析显示,相关基因富集于酚丙烷类、酪氨酸和色氨酸合成、酪氨酸代谢及黄酮生物合成等通路。研究结果表明,Blue模块中的基因主要参与氨基酸和黄酮类化合物的合成与代谢调控,协同参与果实大小、果实酸度、TSS等特性形成,从而影响果实质量。
Methods
methods里面给出了所有分析使用的方法和软件、参数